草庐IT

Java Quartz 作业持久化

全部标签

java - 编写一个空的 MapReduce 作业

我想写一个空的mapreduce作业,实际上我的意思是一个什么都不做的mapreduce作业,只有一个Mapper,一个Reducer和一个主类。我想要它在hortonwoks沙箱2.1中进行测试。这是我的代码:importjava.io.IOException;importjava.util.*;importorg.apache.hadoop.fs.Path;importorg.apache.hadoop.conf.*;importorg.apache.hadoop.io.*;importorg.apache.hadoop.mapred.*;importorg.apache.hado

hadoop - 运行 Spark 作业时出现奇怪的错误

我正在运行一个有80台机器的spark集群。每台机器都是一个8核,50GB内存的虚拟机(41似乎是Spark可用的)。我在几个输入文件夹上运行,我估计输入的大小约为250GBgz压缩。我在驱动程序日志中收到错误信息,我不知道该怎么做。示例(按照它们在日志中出现的顺序):240884[Resultresolverthread-0]WARNorg.apache.spark.scheduler.TaskSetManager-Losttask445.0instage1.0(TID445,hadoop-w-59.c.taboola-qa-01.internal):java.net.SocketT

hadoop - 如何依次运行 Pig 作业

我需要在没有手动交互的情况下按顺序运行pig作业。你能告诉我有没有办法通过使用pig或其他方式来自动化pig工作承担工作:工作001职位002职位003JOB004JOB001--是我的第一个JOB-->成功运行'JOB001'后它应该触发'JOB002'JOB002-->成功运行'JOB002'后应该触发'JOB003'JOB003-->成功运行'JOB003'后它应该触发'JOB004'。 最佳答案 Oozie是适合您的工具。只需创建一个将一个Pig作业连接到另一个的工作流。 关于h

java - Hadoop MapReduce 作业在本地无法加载库并且在 OS X 上连接失败

我正在尝试在OSXYosemite上运行hadoop。当我按照http://hadoop.apache.org/docs/current/hadoop-project-dist/hadoop-common/SingleCluster.html的说明进行操作时,我配置了hadoop,启动了$sbin/start-dfs.sh,然后用jps查看得到了输出:17237DataNode17324SecondaryNameNode17388Jps但是,当我尝试“bin/hdfsdfs-mkdir/user”时,hadoop无法加载库(当我运行其他示例时也会发生同样的情况),并显示连接失败:$bi

Hadoop 作业抛出 ConnectException 访问端口 8021

我使用ClouderaManager安装了CDH5。我从ClouderaMap/Reduce教程中复制并构建了字数统计应用程序当我运行它时,我得到一个包含以下文本的ConnectException:线程“main”中的异常java.net.ConnectException:从fatman.localdomain/10.1.1.10到fatman.localdomain:8021的调用在连接异常时失败:java.net.ConnectException:连接被拒绝;有关详细信息,请参阅:http://wiki.apache.org/hadoop/ConnectionRefused我是MR

algorithm - 集群作业调度算法

我正在寻找适用于以下问题的算法:有多台电脑(具体数目未知)。每台计算机从某个中央队列中提取作业,完成作业,然后提取下一个。工作是由一些用户组产生的。有些用户提交了很多工作,有些则提交了一点。作业消耗相等的CPU时间(不是真的,只是近似值)。中央队列在调度作业时应该是公平的。此外,提交大量作业的用户应该拥有一些最小的资源份额。我正在为这个调度寻找一个好的算法。考虑了两个候选人:类似Hadoop的公平调度程序。这里的问题是:当我的集群大小未知时,我在哪里可以获得最小份额?将一些惩罚与每个用户相关联。安排用户的工作时增加惩罚。使用将作业调度给用户的概率作为1-(归一化惩罚)。这有点像步幅调度

hadoop - 如何检索 hadoop 作业映射/减少输入/输出计数

有什么方法可以在运行hadoop作业后检索并打印reduce输出记录的数量?我正在迭代运行map-reduce,当我之前的reduce输出计数与当前map输出计数相同时,我想停止。 最佳答案 根据您的Hadoop版本,名称可能不同。但一般来说,您可以从作业对象访问您的计数器。job.getCounters().findCounter("org.apache.hadoop.mapred.Task$Counter","REDUCE_OUTPUT_RECORDS").getValue();查阅WebUI以查看您的作业中定义了哪些计数器,并

java - `hbase.rootdir` 作业设置中的配置不被认可

我在HDFS上针对hbase表中存在的数据运行mapreduce作业。当我在玩配置时,我观察到了这一点。conf.set("hbase.rootdir","hdfs://"+hdfsRootNodeIp+":"+hdfsRootPort+"/"+hbaseDirectoryName);对于上面的代码,我理解hbaseDirectoryName应该是在HDFS上创建的文件夹。我已经创建了/hbase目录,作业运行良好。虽然我在MR作业设置期间尝试使用一些垃圾名称,但即使这样map-reduce作业也成功完成,没有抛出错误。有人可以为我解释一下这种行为吗? 最佳

java - 如何为 map reducer 作业在 java 中为 hadoop 输入自定义选择列读取

Hadoop新手,我想了解Hadoop如何读取文件输入:我能够使用下面的代码从2列(键/值)输入文件运行Hadoop作业:但是如果我有5列并且我想要的(键/值)是A&E(而不是A&B)我需要准确修改哪个函数呢?publicclassInverterCounterextendsConfiguredimplementsTool{publicstaticclassMapClassextendsMapReduceBaseimplementsMapper{publicvoidmap(Textkey,Textvalue,OutputCollectoroutput,Reporterreporter)

hadoop - CDH 5.4.4 Sqoop 2 作业开始但从未运行

ClouderaCommunityPost在Cloudera5.4.4中使用Hue,当尝试运行Sqoop2作业时,它显示(i)Thejobisstarting...但它从未真正运行该作业。我在工作浏览器中看不到任何内容,在工作的SUBMISSIONS列表中也看不到任何内容。我在日志中也没有看到任何错误。这是在现有的Cloudera5.4.4(QuickStartVM)上,我假设所有组件都已正确预配置。不幸的是,我所要做的就是缺少错误消息和有用的报告。 最佳答案 在CDH5上,sqoop2服务器确实在/var/log/sqoop2/s